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Влияние ОЗМ-сжатия на эффективность 
работы методов выделения формант 


В статье описываются результаты исследований устойчивости методов выделения формант к сжатию 
при помощи алгоритма С5М 6.10, используемого современной сотовой связью. В работе приведен 
обзор ряда методов выделения формант речевого сигнала, используемых в современных системах 
идентификации диктора, а также численное исследование устойчивости результатов работы этих 
методов к сжатию с потерями. 


Введение 


Для получения индивидуальных параметров голоса диктора применяются раз- 
личные методы, однако формантный анализ позволяет получить наиболее робастные 
идентификационные характеристики. Эмпирически доказано, что для характеристик 
звуков речи достаточно выделения четырех формант. В большинстве случаев для 
различения гласных звуков достаточно первых двух формант, однако практически всегда 
количество формант в спектре звука больше двух, что указывает на более сложные 
связи между артикуляцией и акустическими характеристиками звука, чем при условии 
рассмотрения только двух первых формант. Именно третья и четвертая форманты дают 
представления об индивидуальных особенностях произношения диктора, так как фикси- 
руют побочные резонирующие частоты. Форманты в совокупности с другими характе- 
ристиками речевого сигнала представляют собой качественную динамическую оценку 
диктора [1], [2]. 

Повсеместное использование стандарта кодирования речевого сигнала СЗМ 6.10 
обуславливает использование устойчивых методов анализа речевого сигнала в сис- 
темах распознавания дикторов, анализирующих непосредственно аудиопоток мобильной 
связи. Подобные системы внедряются в первую очередь для применения в кримина- 
листике при исследовании образцов речи и фонограмм разговоров в качестве веще- 
ственных доказательств. 

Проблеме выделения формант в речевом сигнале посвящено много работ. Так, 
в [2-5] описаны результаты анализа эффективности работы используемых методов 
как в отдельности, так и в сравнении. Эксперименты проводились над искусственно 
синтезированным речевым сигналом, записями дикторов с шумовыми искажениями 
и выполнялись проверки устойчивости относительно типа микрофона. Тем не менее, 
работы, посвященные влиянию сжатия на поведение формантных траекторий, на 
сегодняшний день практически отсутствуют. 

Данная работа посвящена актуальной в рамках фоноскопических исследований за- 
даче — анализу влияния @5М-сжатия на эффективность ряда методов выделения формант. 
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Цель данной статьи — оценить влияние алгоритма О5М-сжатия на работу методов 
выделения формант вокализованных участков речевого сигнала. Для достижения 
поставленной цели были программно реализованы два метода выделения формант на 
основе линейного предсказания, которые отличаются концепцией выделения самих 
коэффициентов линейного предсказания, а также, в качестве альтернативы, рассмотрен 
метод нулей сигнала. Проведен сравнительный анализ устойчивости результатов работы 
этих методов к @$М-сжатию. 


Особенности ОЗМ-кодирования 


В стандарте С5М используется метод КРЕ-ГТР (Везщаг Ри! зе Ехсцеа Гопз 
Теги Рге@сюг — линейное предсказание с возбуждением регулярной последователь- 
ностью импульсов и долговременным предсказателем). Обработка речи осуществляется 
в рамках принятой системы прерывистой передачи речи (ОТХ), обеспечивающей вклю- 
чение передатчика только тогда, когда пользователь начинает разговор и отключает 
его в паузах и в конце разговора. ОТХ управляется детектором активности речи (УАО), 
который обеспечивает обнаружение и выделение интервалов передачи речи с шумом 
и шума без речи даже в тех случаях, когда уровень шума соизмерим с уровнем речи. 
В состав системы прерывистой передачи речи входит также устройство формирования 
комфортного шума, который включается и прослушивается в паузах речи, когда пере- 
датчик отключен. Экспериментально показано, что отключение фонового шума на выхо- 
де приемника в паузах при отключении передатчика раздражает абонента и снижает 
разборчивость речи, поэтому применение комфортного шума в паузах считается 
необходимым. 

Кратковременное предсказание (5ТР — Звоп-Тегт Рте@сйоп) не обеспечивает 
достаточной степени устранения избыточности речи. Поэтому в дополнение к кратко- 
временному предсказанию используется еще долговременное предсказание (ГТР — 
Гоп2-Теги Рге@сНоп), в значительной мере устраняющее остаточную избыточность 
и приближающее остаток предсказания по своим статистическим характеристикам к 
белому шуму [6]. 

Формирование комфортного шума осуществляется в паузах активной речи и 
управляется речевым декодером. Когда УАЛ в передатчике обнаружит, что говорящий 
прекращает разговор, передатчик остается еще включенным в течение следующих 
пяти речевых кадров. Во время первых четырех из них характеристики фонового шума 
оцениваются путем усреднения коэффициента усиления и коэффициентов фильтра 
кодирования с линейным предсказанием (КЛП). Эти усредненные значения передаются 
в следующем пятом кадре, в котором содержат информацию о комфортном шуме 
(5 кадр). Комфортный шум генерируется на основе КЛП-анализа ЭТО кадра. Чтобы 
исключить раздражающее влияние модуляции шума, комфортный шум должен соответ- 
ствовать по амплитуде и спектру реальному фоновому шуму в месте передачи. 

В условиях замираний сигналов в подвижной связи речевые фрагменты могут 
подвергаться значительным искажениям. При этом для исключения раздражающего 
эффекта при воспроизведении необходимо осуществлять экстраполяцию речевого 
кадра. Потеря одного речевого кадра может быть значительно компенсирована путем 
повторения предыдущего фрагмента. При значительных по продолжительности пере- 
рывах в связи предыдущий фрагмент больше не повторяется, и сигнал на выходе рече- 
вого декодера постепенно заглушается, чтобы указать пользователю на разрушение 
канала. То же самое происходит и с ЗО кадром. 
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Обзор методов, используемых для выделения формант 


При параметризации РС с помощью КЛИП используют упрощенную модель рече- 
образования, основанную на предположении, что РС -— результат свертки сигнала 
возбуждения последовательностью импульсов либо случайным шумом и импульсной 
характеристики линейного фильтра с медленно изменяющимися параметрами, пред- 
ставляющего собой голосовой тракт. 

Общий спектр РС, обусловленный излучением, речевым трактом и возбуждением, 
описывается с помощью линейной системы с переменными параметрами и модели- 
руется как авторегрессионный процесс. Линейный предсказатель порядка р с коэф- 
фициентами а, для сигнала 5(п) определяется как система, на выходе которой выпол- 


няется равенство 
р 

5(п) = У‘ак5(п —К). 
= 


Основным подходом к получению коэффициентов предсказателя является опре- 
деление параметров предсказания таким образом, чтобы минимизировать средний квад- 


рат погрешности предсказания 
2 


Е = > 5(т) и. —_К) 
т К=1 


Это приводит к системе из р линейных уравнений с р неизвестными. Если речевой 
сигнал на этом интервале считается стационарным случайным процессом (автокор- 
реляционный метод оценки коэффициентов предсказания), то система решается с 
помощью итерационной процедуры алгоритма Левинсона-Дарбина [1]. Если речевой 
сигнал считается нестационарным процессом (ковариационный метод оценки коэффи- 
циентов предсказания), система решается с использованием разложения Холецкого [5]. 

После получения моментального спектра РС, вычисленного по КЛП, находятся 
его пики либо, в их отсутствие, центры плотности. Частоты, соответствующие этим 
пикам, и будут представлять собой формантные частоты. 

Метод нулей сигнала для оценки формантных частот [3], [4] основан на анализе 
распределения длительностей интервалов между нулями сигнала. Анализ нулей сигнала 
предполагает, что в данной частотной полосе присутствуют колебания только одной 
форманты. Это связано с известным свойством, согласно которому при наличии несколь- 
ких частот средняя частота переходов определяется как средневзвешенная по амплитудам 
каждой частоты. Именно поэтому в методе нулей сигнала особенно важен выбор полос 
частот для анализа. 


Исследование эффективности методов 


Для проверки устойчивости вышеописанных методов вычисления формант к 
О$М-сжатию они были реализованы в едином программном комплексе, после чего 
проводилось численное исследование эффективности их работы. 

Тестирование методов проводилось на звуковых сигналах одного диктора, записан- 
ных в формате \/АУ РСМ с частотой дискретизации 44.1 кГц и глубиной квантования 
16 бит. Диктор произносил слова «один», «четыре», «труд». Кроме того, для каждого 
из слов была сделана запись в формате О5М 6.10 \/АУ с частотой дискретизации 8 кГц. 
Все записи были созданы с помощью программы Аидасйу 1.3.12-Баа и осуществлялись 
в монорежиме. 
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Для оценки брались первые четыре форманты Е1- Е4, полученные тремя 
различными методами по реализациям звуков [а], [и], [У] в вышеперечисленном речевом 
материале, и сравнивались со значением, определенным экспертом по спектрограммам 


звуков (табл. 1). 


Таблица 1 — Значения формантных частот, определенных экспертом 


Звук Е1, Гц Е2, Гц ЕЗ, Гц Е4, Гц 
А 688 1505 2236 3483 
И 301 2107 3010 3913 
У 344 860 2325 3354 


В табл. 2 — 4 приведены результаты численного исследования эффективности 
методов на записанном речевом материале. Математическое ожидание и среднее квад- 
ратичное отклонение (СКО) каждой из формант считалось по временному ряду, постро- 
енному следующим образом: речевой сигнал разбивался фреймами длиной 1024 отсчета 
с половинным перекрытием, на каждом из фреймов, входящих в соответствующий звук, 
вышеописанными методами вычислялись значения Е] — Е4, из которых и формировались 
4 выборки, соответствующие формантным частотам. Погрешность вычислялась как мо- 
дуль разности между математическим ожиданием и истинным значением форманты, 
определенным экспертом, значение ошибки представляет собой процентное отношение 
погрешности к истинному значению форманты. 

В силу специфики метода нулей необходимо указание особых частотных полос 
для анализа каждого звука. Однако таким образом метод становится сильно зависим 
от работы эксперта, что лишает его автономности в принятии решений. Для данного 
исследования были взяты статистически универсальные значения полос: 300 — 1000 Гц 
для Е1, 1000 — 1800 Гц для Е2,1800 — 2500Гц для ЕЗ и 2500 — 4000 Гц для Е4. 

Результаты исследования устойчивости метода автокорреляционных КЛП для 
звуков [а], [и], [У] приведены в табл. 2. 

Результаты исследования устойчивости метода ковариационных КЛП для 
звуков [а], [и], [У] приведены в табл. 3. 

Результаты исследования устойчивости метода нулей сигнала для звуков [а], 
[и], [У] приведены в табл. 4. 

По полученным результатам численных исследований можно судить о качестве 
работы методов и их устойчивости к ОЗМ-сжатию. Как и следовало ожидать, погреш- 
ность оценки формант всеми методами увеличивается при работе с @ЗМ-кодирован- 
ным сигналом, что обусловлено частичной потерей и искажением речевых данных. 

Наименьший разброс оценок формант показал метод нулей сигнала. Значения фор- 
мант, полученные с помощью этого метода, довольно четко сконцентрированы в диапа- 
зоне предполагаемой формантной частоты. Сжатие речевого сигнала привело к увеличе- 
нию погрешности в среднем не более, чем на 2%, что позволяет считать данный метод 
устойчивым к СЗМ-сжатию. Тем не менее среди всех рассмотренных методов для 
сигнала формата \/АУ метод нулей дает самую большую погрешность. Это обуслов- 
лено зависимостью этого метода от выбора статистических полос оценок формант. Прак- 
тически невозможно разделить пространство частот таким образом, чтобы в каждой 
из них находилось не более одной форманты при рассмотрении любой фонемы. 
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Таблица 2 — Оценка формант гласных звуков методом автокорреляционных КЛИП 


Форманта Частота, Мат. ожидание, | СКО, Гц | Погрешность, | Ошибка, % 
определенная Гц Гц 
экспертом, Гц 
Оценка формант звука «А» в сигнале формата \УАУ 
Е! 688 705,8 57,46 17,8 2. 
Е2 1505 1523,46 180,02 18,46 1,23 
ЕЗ 2236 2275,69 145,57 39,69 1,78 
Е4 3483 3180,13 449,11 302,47 8,69 
Оценка формант звука «А» в @5М-кодированном сигнале 
Е] 688 715,02 68,99 27,02 3,93 
Е2 1505 1512,49 108,15 7,49 0,5 
ЕЗ 2236 2250,4 185,55 14,4 0,64 
Е4 3483 3192,07 464,23 290,53 8,34 
Оценка формант звука «И» в сигнале формата \УАУ 
Е! 301 280,97 38,05 19,76 6,57 
Е2 2107 2196,91 94,18 89,91 4,27 
ЕЗ 3010 2967,21 152,58 42,79 1,42 
Е4 3913 3129,78 307,44 783,22 20,02 
Оценка формант звука «И» в @5М-кодированном сигнале 
Е! 301 285,24 40,01 15,49 Зо 
Е2 2107 2186,96 113,37 79,96 3,8 
ЕЗ 3010 2978,22 197,87 31,78 1,06 
Е4 3915 3086,4 307,88 826,6 2112 
Оценка формант звука «У» в сигнале формата \УАУ 
Е! 344 276,81 35:55 67,19 19:55 
Е2 860 840,69 76,06 19,12 222 
ЕЗ 2923 2380,32 163,79 27,11 2,49 
Е4 3354 3123,29 419,03 230,71 6,88 
Оценка формант звука «У» в @5М-кодированном сигнале 
Е! 344 282,19 45,95 61,81 17,97 
Е. 860 836,99 98,15 22,83 2,66 
ЕЗ рая 2387,06 235,61 64,47 2,78 
Е4 3354 3184,56 397,85 169,44 5,05 
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Таблица 3 — Оценка формант гласных звуков методом ковариационных КЛИП 
Форманта Частота, Мат. ожидание, | СКО, Гц | Погрешность, | Ошибка, % 
определенная Гц Гц 
экспертом, Гц 
Оценка формант звука «А» в сигнале формата \УАУ 
Е] 688 831,34 243,85 143,34 20,83 
Е2 1505 1691,1 198,46 186,1 12,37 
ЕЗ 2236 1993,09 280,81 242,91 10,86 
Е4 3483 3273,4 223,88 209,2 6,01 
Оценка формант звука «А» в @5М-кодированном сигнале 
Е] 688 765,41 165,86 77,41 11:25 
Е2 1505 1229,51 297,76 275,49 18,3 
ЕЗ 2236 2000,79 232,81 235,21 10,52 
Е4 3483 3460,03 277,08 22:91 0,65 
Оценка формант звука «И» в сигнале формата \УАУ 
Е] 301 425,73 18,69 125 41,56 
Е2 2107 2136,71 48,8 29,71 1,41 
ЕЗ 3010 3209,09 71,02 199,09 6,61 
Е4 3913 3252.25 48,07 660,75 16,89 
Оценка формант звука «И» в @5М-кодированном сигнале 
Е! 301 472,31 369,2 171,58 57,05 
Е2 2107 2151.73 Я 24,73 ЕЯ 
ЕЗ 3010 3055,9 212.22 45,9 1,53 
Е4 3913 3070,48 215,1 842 21:53 
Оценка формант звука «У» в сигнале формата \УАУ 
Е] 344 430 0 86 25 
Е2 860 467,28 42,62 610,54 29,65 
ЕЗ 2925 1994,49 653,01 328,06 14,13 
Е4 3354 2411,2 654,16 942,8 28,11 
Оценка формант звука «У» в @5М-кодированном сигнале 
Е] 344 431,79 12,28 87,79 25,22 
Е2 860 481,32 60,78 378,5 44,02 
ЕЗ ей 1930,23 656,81 392:33 16,89 
Е4 3354 2461,97 567,22 892,03 26,6 
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Таблица 4 — Оценка формант гласных звуков методом нулей 


Форманта Частота, Мат. ожидание, | СКО, Гц | Погрешность, | Ошибка, % 
определенная Гц Гц 
экспертом, Гц 
Оценка формант звука «А» в сигнале формата \УАУ 
Е! 688 652,13 37.58 35,88 ЗЕ 
ро 1505 1481,21 218,36 239 1,58 
ЕЗ 2236 1874,81 77,13 361,19 16,15 
Е4 3483 2745,97 163,36 736,63 215 
Оценка формант звука «А» в @5М-кодированном сигнале 
Е! 688 680,63 66,78 7,38 1,07 
Е2 1505 1266,03 72,65 238,97 15,88 
ЕЗ 2236 2055:22, 282,12 180,78 8,08 
Е4 3483 2729,16 159,23 753,44 21,63 
Оценка формант звука «И» в сигнале формата \АУ 
|8 301 327,96 23,28 27.22 9,05 
Е2 2107 2010,63 81,75 96,37 4,57 
ЕЗ 3010 2567,5 110,59 442,5 14,7 
Е4 3913 2657,62 226,46 1255,38 32,08 
Оценка формант звука «И» в @5М-кодированном сигнале 
Е 301 327,19 17,27 26,46 8,8 
Е2 2107 2034,82 85,22 72,18 3,43 
Е. 3010 2606,24 256,81 403,76 13,41 
Е4 3913 2614,97 250,41 1298,03 33,17 
Оценка формант звука «У» в сигнале формата \\УАУ 
Е 344 534,11 261,53 281,11 18,27 
Е2 860 936,88 145,16 77,07 8,96 
ЕЗ 2323 2193,55 137,87 129,01 5,55 
Е4 3354 2646,38 115,83 707,62 21,1 
Оценка формант звука «У» в @5М-кодированном сигнале 
ЕЛ 344 487,46 247,75 268,46 22.7 
Е2 860 979,58 118,48 119,77 13,93 
ЕЗ 2323 2186,02 124,96 136,54 5,88 
Е4 3354 2644,91 5.2 709,09 21,14 
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Влияние СЭМ-сжатия на эффективность работы методов выделения формант 4Е 


Индивидуальность голоса дикторов еще больше усложняет данную задачу. Поэтому 
при численном исследовании были нередки случаи попадания нескольких формант в 
одну полосу анализа. Это обстоятельство значительно повлияло на эффективность работы, 
результат которой зачастую сводится к выбору более низкой частоты или к девиантным 
колебаниям между формантами. Таким образом, метод требует тонкого подбора пара- 
метров, что является нежелательным при автоматическом распознавании. Следовательно, 
применение данного метода в формантном анализе возможно лишь в узкой области за- 
дач, требующих тесного взаимодействия с экспертом. 

Оценки формант по методу ковариационных КЛП отличаются незначительным 
увеличением СКО по сравнению с методом нулей, форманты оцениваются довольно 
точно (погрешность 1 — 10%). Однако СКО увеличивается в несколько раз при обра- 
ботке @$М-кодированного РС. Искажения, вносимые сжатием, в значительной мере 
«размывают» границы частотных пиков. Этим обусловлена нестабильность оценок фор- 
мантных частот, что делает данный метод неустойчивым к @$М-сжатию. 

Погрешность оценок формант по методу автокорреляционных КЛП для сигналов 
формата \/АУ является наиболее низкой из всех полученных. Особенно точно опреде- 
ляются частоты формант Е2 и ЕЗ (погрешность 0,5 — 4%). Разброс оценок формант 
@5М-кодированного РС остается практически таким же, как и для несжатого РС, что 
выгодно отличает данный метод от других, СКО увеличивается в значительной мере. 

Исследования показали, что О5М-сжатие сильно влияет на эффективность работы 
метода ковариационных КЛП, в то время как методы нулей сигнала и автокорреляцион- 
ных КЛИП показали высокую устойчивость к данному типу кодирования РС и могут 
применяться для эффективного формантного анализа. Что касается точности оценок 
формантных частот, то эти методы показывают хорошие результаты только при вы- 
полнении своих специфических условий: метод нулей требует выделения точных полос 
анализа, а КЛП-методы -— низкого уровня шума и искажений. 


Выводы 


Таким образом, было установлено, что рассмотренные методы значительно раз- 
личаются между собой в показателях погрешности оценок формант, их СКО и устой- 
чивости. 

Наименьшие погрешности для несжатого сигнала достигаются при вычислении 
формант методом автокорреляционных КЛП, наибольшие — методом нулей, что 
обусловлено спецификой работы алгоритма, и могут быть снижены использованием 
эвристик или вмешательством эксперта. Оба метода характеризуются относительно 
небольшим СКО оценок формант как для сжатого, так для несжатого сигнала. 

Наибольшую величину СКО оценок формант для О@3М-кодированного РС дает 
метод ковариационных КЛП. О@$М-сжатие сильно влияет на эффективность его работы, 
в то время как методы нулей сигнала и автокорреляционных КЛП показали высокую 
устойчивость к данному типу сжатия РС и могут применяться для эффективного 
формантного анализа. 

Полученные в работе результаты могут быть использованы при разработке систем 
идентификации диктора в задачах фоноскопической экспертизы, в системах контроля до- 
ступа и биометрической идентификации. 
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Т.В. Ермоленко, М.С. Клименко 

Вплив С5М-стиснення на ефективн!сть роботи методв видлення формант 

У статт! описано результати дослуджень сткост! методв видллення формант до стиснення за допомогою 
алгоритму @ЗМ 6.10, що використовуеться у сучасному стильниковому зв’язку. У статт! наведено 
огляд ряду методв видлення формант мовленневого сигналу, що використовуються у сучасних системах 
1дентиф\каци диктора, а також чисельне досллдження стйкост! результат роботи цих методв до 
стиснення 13 втратами. 


Т.Г. Уегтоепнко, М.5. КТутепко 

шйЙиепсео? СУМ-Сотрге$$10п оп е Ееабиге$ о? ЕогтапЕ Тгаскшо Ме#о@$ 

ТБе рарег 15 деусе4 ю Фе ргоМет оЁ юпа басКше тефо4$ гобазтез$ ю @5М 6.10 сотргезз1оп 
а1еогинт, ус 1$ етроуе4 \/иш то4ега се!аг пебмогК$. ТЬ$ агйсе 4езсгез пе фо4$ оЁ Гогтап 
тасКте изед ш тодегп зреаКег 14епйЙсайоп зузетл$. Сотрщайопа| шуезизайоп гези $ оЁ Фезе тефо4$ 
гоба$тез$ 10 1055у сотргезз1оп аге а150 зЗВо\п. 


Статья поступила в редакцию 01.07.2011. 
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